데이터분석 준전문가 42회

데이터 이해


1. 1. 다음중 데이터의 특성이 다른 하나는?
  •  풍량
  •  강수량
  •  기상특보
  •  습도

2. DIKW 피라미드 예시 중 맞는 것은?
  •  D(Data): A마트는 100원, B마트는 200원에 연필을 판매한다.
  •  I(Information): B마트가 A마트보다 연필이 100원 더 비싸다.
  •  K(Knowledge): B가 A보다 연필이 더 싸니깐 B에서 사야겠다.
  •  W(Wisdom): 문구류는 전반적으로 A마트가 더 저렴할 것이다.

3. 데이터사이언티스트에게 필요한 역량이 아닌 것은?
  •  스토리텔링
  •  비즈니스 분석기법
  •  네트워크 구축 역량
  •  통계적 사고능력

4. 데이터베이스의 진행 절차를 올바른 순서대로 나열한 것은?
  •  통합 - 저장 - 공유 - 변화
  •  저장 - 통합 - 변화 - 공유
  •  공유 - 저장 - 통합 - 변화
  •  변화 - 통합 - 저장 - 공유

5. 빅데이터 위기 요인이 아닌 것은?
  •  사생활 침해
  •  책임원칙훼손
  •  데이터오용
  •  분석기술의 발달

6. 빅데이터가 만들어내는 변화로 옳은 것은?
  •  사후조사 → 사전예측
  •  표본조사 → 전수조사
  •  질적분석 → 양적분석
  •  인과관계 → 상관관계

7. 빅데이터가 미치는 영향이 아닌 것은?
  •  고객에게 획일화된 서비스 제공
  •  맞춤형 서비스 확대
  •  업무 프로세스 최적화
  •  새로운 가치 창출

8. 빅데이터의 사생활침해 해결방법은?
  •  제공자 동의에서 사용자 책임으로 전환한다
  •  데이터 수집 범위를 제한한다
  •  개인정보 비식별화를 강화한다
  •  데이터 보안 시스템을 구축한다

9. 빅데이터가 발전한 요인이 아닌 것은?
  •  정형 데이터의 폭증
  •  하둡 등 분산처리 기술의 발전
  •  SNS 등 비정형 데이터의 증가
  •  클라우드 컴퓨팅의 발전

10. 연결된 상태로 연결을 관리해야할 때를 설명하는 것은?
  •  연결성
  •  디지털화
  •  에이전시
  •  네트워크 효과

데이터 분석 기획


11. KDD 분석방법론의 올바른 순서는?
  •  Selection - Preprocessing - Transformation - Data Mining - Interpretation/Evaluation
  •  Preprocessing - Selection - Transformation - Data Mining - Interpretation/Evaluation
  •  Selection - Transformation - Preprocessing - Data Mining - Interpretation/Evaluation
  •  Preprocessing - Transformation - Selection - Interpretation/Evaluation - Data Minin

12. 전체 학생 중 한명을 뽑았더니 사과를 좋아할 확률은?
  •  4/10
  •  3/5
  •  1/2
  •  3/10

13. CRISP-DM의 업무이해 단계로 맞는 것은?
  •  업무 상황파악 - 데이터 마이닝 목표설정 - 프로젝트 계획 수립
  •  데이터 마이닝 목표설정 - 프로젝트 계획 수립 - 업무 상황파악
  •  프로젝트 계획 수립 - 업무 상황파악 - 데이터 마이닝 목표설정
  •  업무 상황파악 - 프로젝트 계획 수립 - 데이터 마이닝 목표설정

14. 4V에서 비즈니스 효과에 해당하는 것은?
  •  Value
  •  Volume
  •  Velocity
  •  Variety

15. 프로세스 내재화에 대한 설명 중 분석 결과를 활용하고, 혁신 및 성과 향상에 기여하는 것은?
  •  도입
  •  활용
  •  확산
  •  최적화

16. 상향식 방법론으로 옳지 않은 것은?
  •  문제정의를 명확히 할 수 있을 때 사용한다
  •  데이터 중심의 접근방식이다
  •  데이터를 통해 인사이트를 도출한다
  •  탐색적 분석이 중심이 된다

17. 분석과제에서 고려해야할 요소가 아닌 것은?
  •  데이터 크기(규모)
  •  속도
  •  복잡도
  •  데이터 분류

18. 시급성이 현재일 때 가장 먼저 고려할 것은?
  •  전략적 중요도
  •  실현 가능성
  •  데이터 확보 용이성
  •  분석 난이도

19. 데이터분석 준비시 고려의 중요도가 가장 낮은 것은?
  •  비용
  •  분석업무이해
  •  분석문화
  •  분석기법

20. 협의의 데이터플랫폼의 구성요소인 것은?
  •  분석 어플리케이션
  •  분석 서비스 제공 API
  •  분석 라이브러리
  •  분석 서비스 엔진

데이터 분석


21. 분석 방법은 알고 대상은 모를 때 사용할 수 있는 방법은?
  •  발견
  •  통찰
  •  최적화
  •  솔루션

22. 회귀모형 선택방법에 대한 설명 중 틀린 것은?
  •  AIC는 모형의 적합도와 복잡성을 고려한다
  •  R-제곱은 설명력을 나타내는 지표이다
  •  조정된 R-제곱은 변수 수를 고려한다
  •  BIC는 베이즈 정리에 기반하여 복잡한 모형에 더 큰 페널티를 부여한다

23. 혼합분포군집에서 사용하는 알고리즘은?
  •  EM 알고리즘
  •  K-means
  •  계층적 군집화
  •  DBSCAN

24. TV-라디오 R코드 해석 문제
  •  TV와 라디오 사이의 교호관계가 있어 통계 모형이 유의하다
  •  TV:radio 통계 모형이 유의하다
  •  TV가 1 증가할 때 RADIO와 상관없이 SALES가 오른다
  •  모형의 설명력은 약 67%이다

25. 분해시계열 요인 중 옳지 않은 것은?
  •  추세요인
  •  계절요인
  •  교호요인
  •  순환요인

26. 다음 중 지도학습이 아닌 것은?
  •  로지스틱회귀분석
  •  의사결정나무
  •  인공신경망
  •  SOM

27. 회귀방정식 탐색방법 중 잘못된 것은?
  •  후진선택법은 상수항만 남을때까지 제거한다
  •  전진선택법은 변수를 하나씩 추가한다
  •  단계적 선택법은 변수를 추가하거나 제거할 수 있다
  •  모든 가능한 회귀는 모든 조합을 검토한다

28. 앙상블기법이 아닌 것은?
  •  시그모이드
  •  배깅
  •  부스팅
  •  스태킹

29. 이상치를 이용하기에 가장 적절한 시스템인 것은?
  •  부정구매 방지시스템
  •  추천시스템
  •  수요예측시스템
  •  고객분류시스템

30. 매우만족 - 만족 - 보통 - 불만 - 매우 불만족은 무슨 척도인가?
  •  서열척도
  •  명목척도
  •  구간척도
  •  비율척도

31. 의사결정트리에서 범주형 변수에서의 분할방법에서 사용하는 것으로 옳지 않은 것은?
  •  카이제곱 통계량
  •  지니지수
  •  엔트로피지수
  •  분산감소량

32. 주장하고자 하는 가설이 실제로는 예상보다 이상값이 도출될 확률이 높은 것은?
  •  알파
  •  P-value
  •  베타
  •  1-알파

33. 다음에서 t통계량을 계산하시오
  •  2.348 / 0.312 (회귀계수 / 오차)
  •  0.312 / 2.348 (오차 / 회귀계수)
  •  2.348 * 0.312 (회귀계수 * 오차)
  •  (2.348 + 0.312) / 2

34. 다음 표로부터 오분류율을 계산하시오.
  •  13/20 = (FP + FN)/전체 = (8 + 5)/20 = 0.65
  •  (TP + TN)/전체 = (2 + 5)/20 = 0.35
  •  TP/(TP + FP) = 2/(2 + 8) = 0.2
  •  TN/(TN + FN) = 5/(5 + 5) = 0.5

35. 보기의 내용을 통해 도출한 A질병 진단받은 사람 중 A질병 가진 사람 비율은?
[보기]

- 전체 중 A질병 가진사람: 10%

- 전체 중 A질병 진단받은 사람: 20%

- A질병 진단받은 사람 중 A질병을 실제 가진 사람: 90%
  •  1/9
  •  2/9
  •  9/20
  •  9/10

36. 결측값에 대한 설명 중 틀린 것은?
  •  완전연결법은 결측값 데이터를 완전히 삭제한다
  •  다중대치법은 여러번 대치하여 여러개의 자료를 도출한다
  •  확률단순선택법은 회귀분석을 사용한다
  •  평균표준편차는 중앙값으로 대체한다

37. 군집분석에서 군집수를 결정하는 방법은?
  •  엘보우방법
  •  상관계수
  •  유클리드거리
  •  맨하탄거리

38. 모집단이 정규분포를 따를때 신뢰구간 95%가 다음과 같이 계산된다. 이중 틀린 설명은?
0.5 ± 1.96 / √100
  •  신뢰구간 99%로 변경시 1.96대신 2.58이다
  •  표본평균이 0.5이다
  •  모집단의 평균값이 신뢰구간에 포함되지 않을 수 있다
  •  동일한 모집단에서 같은 방식으로 표본을 추출하고 같은 방식으로 신뢰구간을 추정하면 동일한 값이 나온다

39. DBSCAN 관련하여 틀린 것은?
  •  임의 형태의 군집으로 분류하는데 유용하다
  •  밀도기반 군집화 알고리즘이다
  •  초기 군집수 k를 설정해야한다
  •  다차원 자료의 경우 '차원의 저주'로 인해 유용하지않다

40. 인공신경망관련 설명 중 틀린 것은?
  •  은닉층이 적으면 과대적합, 은닉층 많으면 과소적합
  •  은닉층이 많을수록 복잡한 패턴을 학습할 수 있다
  •  활성화함수는 비선형성을 부여한다
  •  과적합을 방지하기 위해 드롭아웃을 사용할 수 있다

41. 신용카드 고객의 파산확률을 yes, no로 예측하기에 적절하지 않은 방법은?
  •  선형회귀분석
  •  로지스틱 회귀분석
  •  랜덤포레스트
  •  SVM

42. 의사결정트리에서 더이상 세분화하지않고 멈출때 사용하는 기법은?
  •  정지규칙
  •  가지치기
  •  비용복잡도
  •  교차검증

43. 다중공선성 해결방법으로 옳지 않은 것은?
  •  중요도가 낮으면서 상관계수가 높은 변수를 제거한다
  •  구조적 다중공선성의 문제가 있는 경우에는 데이터의 평균 중심을 변화한다
  •  주성분분석을 통해 차원을 축소한다
  •  VIF를 이용하여 다중공선성 유무를 판단한다

44. 다중회귀모형에서 통계적으로 유의함을 판단할때 사용하는 검증은?
  •  F검정
  •  P-VALUE
  •  T통계량
  •  Z통계량

45. 데이터 베이스의 특징 중 ( ) 안에 들어갈 내용으로 알맞은 것은?
1. ( )데이터는 동일한 내용이 중복되지않게 함

2. ( )데이터는 컴퓨터가 접근할 수있는 매체에 저장

3. ( )데이터는 여러 사용자가 함께 사용가능

4. ( )데이터는 항상 변화해도 현재의 정확한 데이터를 유지해야함
  •  공용 - 저장 - 통합 - 변화되는
  •  저장 - 통합 - 공용 - 변화되는
  •  통합된 - 저장 - 공용 - 변화되는
  •  통합된 - 공용 - 변화되는 - 저장

46. 이상값에 대한 설명 중 틀린 것은?
  •  범위의 경우 이상값 존재시 값이 커진다는 단점이 있다
  •  평균대치법에는 조건부 평균대치법, 비조건부 평균대치법이 있다
  •  이상값은 데이터의 품질을 저하시킬 수 있다
  •  평균절대편차법은 중앙값이랑 변수 사이의 차이값들로 이루어진 것을 의미한다

47. 자기상관모형에 대한 설명으로 맞는 것은?
  •  ARIMA는 비정상 시계열에만 사용한다
  •  MA(q)는 과거의 관측값에 의존한다
  •  계절성 ARIMA는 주기성을 고려하지 않는다
  •  AR(1)은 1개의 시차, AR(2)는 2개의 시차 사용한다

48. 회귀모형의 가정에 대한 설명으로 옳은 것은?
  •  잔차는 서로 독립이어야 한다
  •  설명변수 간에는 높은 상관관계가 있어야 한다
  •  잔차의 분산은 불균일해야 한다
  •  잔차는 비정규분포를 따라야 한다

49. A를 선택할 확률 대비 B와 A를 같이 팔 때 얼마나 더 많이 팔리는가?
  •  지지도
  •  신뢰도
  •  향상도
  •  재현율

50. apriori 알고리즘에 대한 설명으로 옳은 것은?
  •  순차적 패턴을 찾는데 사용된다
  •  군집분석에 주로 활용된다
  •  최소 지지도를 가정으로 한다
  •  연속형 변수에만 적용 가능하다

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
채점하기
hide
reset
타이머

모든 문제들의 저작권은 원저작권자에게 있습니다. 본 사이트는 웹상에 공개되어 있는 문제만 모아서 보여드립니다.
저작권 안내   데이터 보호 안내   제휴 문의

copyright 2025 뉴비티::새로운 CBT 시스템 - newbt.kr